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摘要 : ROC (receiver operating characteristic ) 分 析 是 诊断 研究 中 一 种 重要 且 应 用 广泛 的 方 
Ik. 虽然 近年 来 其 广泛 应 用 于 诊断 研究 , 但 国内 尚未 见 该 方法 用 于 心理 测量 研究 中 。 而 ROC 
分 析 方 法 中 ， 本 文 主要 介绍 基于 贝 叶 斯 理论 的 ROC 分 析 BROC) 在 心理 测量 中 的 应 用 。 
基于 此 ， 本 文 首先 回顾 介绍 ROC 分 析 方 法 的 发 展 及 演变 ,然后 梳理 BROC 在 心理 测量 中 的 
应 用 ， 并 进行 实例 模拟 ， 最 后 展望 其 在 心理 测量 领域 的 应 用 前 景 。 
Ke: ROC 分 析 ; 贝 叶 斯 ;心理 测量 ; 诊断 测验 ;准确 性 评估 ; 
1. 引言 
心理 学 研究 常 利用 生理 或 心理 指标 来 量化 心理 状态 和 /或 特质 ， 从 而 达到 预测 和 控制 相 
关 行 为 的 目的 , 因此 指标 的 准确 性 评估 是 保证 预测 结果 的 重要 前 提 。 问卷 测量 及 行为 实验 等 
是 研究 相关 心理 与 行为 的 常用 测量 工具 ， 如 使 用 大 五 人 格 量 表 来 反映 人 格 特质 (Lui et al., 
2020)， 利 用 贝克 抑郁 量 表 来 测量 评估 个 体 的 抑郁 情况 (Macchi et al.，2020)， 利 用 ERP 来 
究 个 体内 部 心理 状态 等 (Cui et al.，2021)。 心 理 测 量 工具 的 准确 性 是 研究 有 效 的 重要 前 
提 。 但 以 往 心 理学 研究 中 常用 信 效 度 来 反映 测量 工具 的 有 效 性 ， 其 结果 较为 单一 , 无 法 直观 
反映 结果 的 预测 价值 , 且 无 法 直接 比较 不 同 测量 工具 之 间 的 准确 性 , 因此 如 何 用 更 好 的 方法 
来 评估 心理 测量 工具 的 准确 性 迫在眉睫 。 
ROC 分 析 最 先 在 信号 检测 论 (SDT) 中 被 提出 ， 最 早 用 于 雷达 监测 ， 后 用 于 研究 感觉 阔 
限 ( 如 上 听觉、 视觉 和 触觉 ) 等 行为 反应 ;如今 已 被 广泛 应 用 于 分 析 心 理学 和 神经 科学 实验 


(Sumner etal.，2019)， 以 及 其 他 各 种 不 同 的 领域 ， 如 医学 诊断 、 机 器 学 习 等 (Obuchowski 
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&Bullen, 2018 ; Ma etal., 2019), PJH R 中 的 plotROC 包 实 现 (Sachs，2017)。 近 年 来 ， 
国外 应 用 ROC 分 析 方 法 对 心理 测量 工具 进行 准确 性 评估 的 研究 越 来 越 多 (Ruddy et al., 


2018; Bowers et al., 2019; Thapa et al.，2020)， 主 要 是 将 时 间 依 赖 相关 的 ROC 分 析 
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(tROC) 和 基于 贝 叶 斯 的 ROC 分 析 (BROC) 在 诊断 研究 中 的 使 用 方法 用 于 心理 学 研究 中 。 


如 Levis 和 Sun (20200 利用 ROC 分 析 方 法 来 比较 抑郁 症 第 查 量 表 PHQ -2、PHQ -9 及 
关 合 诊断 之 间 的 评估 准确 性 。ROC 分 析 方 法 还 一 般 通 过 二 分 类 转换 ， 寻 找 最 佳 临 界 点 ， 从 


而 获得 更 多 所 需要 的 信息 。 如 ，Richardson (2018) 等 在 研究 智能 手机 使 用 时 ， 利 用 ROC 分 


析 来 获得 智能 手机 使 用 量 表 \PSUS) Ae EB, iit St AUC 来 评估 PSUS 的 准确 性 ,3 
利用 cut - off. 点 去 寻找 连续 性 结果 的 最 佳 临界 值 。 

随 着 计算 机 技术 的 发 展 ， 在 医学 诊断 研究 中 ，ROC 分 析 方 法 不 仅 实现 了 对 金 标准 条 件 
的 放宽 ， 从 二 分 金 标准 、 等 级 金 标 准 到 无 金 标准 ， 而 且 还 能 在 研究 过 程 中 将 更 多 协 变量 的 影 
响 考虑 在 内 , 如 时 间 依 赖 相关 的 ROC 分 析 、 基 于 贝 叶 斯 原理 的 无 金 标准 ROC 分 析 方 法 等 。 
后 者 能 够 在 无 金 标准 下 进行 诊断 评估 , 彻底 摆脱 过 去 ROC 分 析 必 须 基于 金 标 准 存在 的 壁垒 ， 
从 而 为 缺乏 金 标准 的 一 些 研 究 提供 可 能 性 ， 这 为 ROC 在 心理 测量 准确 性 评估 中 的 应 用 提供 


了 启示。 与 此 同时 ， 虽 然 ROC 分 析 方 法 早已 涉足 心理 学 领域 ， 但 它 在 国内 心理 测量 中 的 应 
用 尚未 得 到 广泛 应 用 。 


基于 此 , 本文 先 简单 归纳 现存 的 ROC 分 析 方 法 ,尤其 是 基于 贝 叶 斯 的 ROC 分 析 (BROC )， 


然后 总 结 它 在 心理 测量 领域 的 具体 应 用 , 并 就 其 在 心理 学 领域 的 进一步 发 展 提 出 展望 。 则 在 


Es 


将 BROC 分 析 方法 “移植 ”到 心理 测量 领域 ， 从 而 拓宽 其 在 心理 学 领域 尤其 是 心理 测量 人 
域 的 应 用 范围 。 
2. ROC 方 法 的 常见 方法 介绍 


ROC 曲 线 是 一 个 以 1 - 特异 性 (specificity) WEER, 敏感 性 (sensitivity) 为 纵 坐 标的 
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O 曲线 关系 图 ( 见 图 1) ， 主 要 利用 曲线 的 临界 值 cut - off point) 和 曲线 下 面积 (AUC, area 


under curves) 来 反应 诊断 结果 (Mandrekar et al., 2010). 

曲线 的 临界 值 cut - off point) , 即 曲线 拐点 处 的 正切 值 ， 在 临床 研究 中 常 选择 最 大 约 
登 指 数 〈Youden index) 所 对 应 的 临界 值 ， 即 最 佳 cut-off 值 ， 作 为 将 测试 结果 划分 为 阳性 和 
明 性 的 依据 。 约 登 指数 表示 诊断 方法 准确 区 分 患者 与 非 患者 的 总 能 力 ( 灵 敏 度 与 特异 度 2 
和 减 去 1), 指数 越 大 说 明 筛 查实 验 的 效果 越 好 , 真实 性 越 大 (Martfnez-Cambloret al.,2019 )。 


曲线 下 面积 (AUC) 的 形式 定义 是 : AUC = 太 yCxz)dx， 即 对 所 有 可 能 的 特异 性 值 进行 检验 


的 敏感 度 平 均值 ，AUC 越 高 的 测试 被 认为 是 准确 性 越 好 。 但 AUC 的 指标 变化 敏感 性 低 ， 因 
此 单 靠 AUC 的 比较 无 法 直接 得 出 结论 ， 故 还 需要 结合 参考 敏感 性 和 特异 性 值 Janssens & 


Martens，2020) 。 
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传统 ROC 分 析 应 用 于 诊断 评估 时 通常 使 用 Yerushalmy 模式 ， 核 心 是 将 所 测 结果 与 金 
标准 做 比较 。 因 此 前 提 是 存在 一 个 可 靠 、 稳 定 的 二 分 金 标准 ， 否 则 将 无 法 计算 其 灵敏 度 与 特 
异 度 ， 从 而 无 法 评价 和 判断 准确 性 。 尽 管 金 标准 对 ROC 分 析 而 言 至 关 重 要 ， 但 要 获得 一 个 
稳定 、 合 适 的 二 分 金 标 准 并 不 容易 。 临 床上 很 多 疾病 的 金 标 准 并 非 二 分 变量 ,而 是 等 级 或 连 
续 变 量 ; 此 外 有 些 金 标 准 获取 成 本 极 高 ， 过 程 繁琐 复杂 ， 或 不 符合 伦理 道德 要 求 ， 甚 至 暂时 
没有 成 熟 的 金 标准 ， 由 此 可 见 对 金 标准 的 严格 要 求 极 大 地 限制 ROC 分 析 方 法 的 应 用 《〈 王 肖 
南 ，2019)。 为 解决 此 类 问题 ， 有 研究 者 利用 专家 经 验 将 等 级 变量 主观 转化 为 二 分 变量 。 如 
Numan 等 利用 专家 经 验 将 三 类 合并 为 两 类 (Numan et al., 2019)， 以 方便 进行 ROC 分 析 ， 
但 主观 转换 造成 的 误差 较 大 ;再 如 陈 卫 中 等 将 等 级 变量 分 为 多 组 二 分 变量 ， 分 别 两 两 比较 ， 
从 而 为 等 级 变量 的 金 标 准 研究 提供 方向 , 但 这 本 质 上 仅 是 扩展 曲线 下 面积 的 应 用 ,， 并 无 法 利 
用 ROC 曲线 的 其 它 信息 ， 如 cut-off 值 等 ( 陈 卫 中 ，2012)。 事 实 上 早 在 上 世纪 末 就 有 研究 
者 (Peng et al.，1996) 将 贝 叶 斯 理论 引入 ROC 分 析 方 法 中 ， 实 现 无 金 标准 的 ROC 分 析 。 
与 过 去 的 Yerushalmy 模式 不 同 ， 该 方法 主要 利用 贝 叶 斯 理论 ， 不 局 限于 寻找 金 标准 ， 而 强 
调 收集 先 验 信息 , 再 结合 临床 经 验 获 得 的 对 疾病 有 效 的 相关 信息 , 与 此 同时 还 能 将 多 个 协 变 
量 的 影响 考虑 在 内 , 从 而 对 其 后 验 分 布 进行 有 效 的 估计 。Flor 等 研究 表明 贝 叶 斯 估计 方法 优 
于 传统 的 频率 估计 方法 (Flor etal., 2020). 


根据 金 标准 的 特征 不 同 ， 本 文 总 结 出 以 下 三 种 常用 新 方法 : 等 级 金 标准 条 件 下 的 ROC 


曲线 分 析 方法 ， 时 间 依 赖 相关 的 ROC 曲 线 分 析 方 法 ， 无 金 标准 条 件 下 的 ROC 曲 线 分 析 方 
法 。 以 下 是 对 这 三 种 类 型 方法 的 详细 介绍 ， 包 括 金 标准 主要 特征 、 临 床 应 用 及 评价 。 
2.1 基于 等 级 金 标准 条 件 下 的 ROC 曲 线 分 析 方 法 

等 级 金 标准 条 件 下 的 ROC 分 析 方 法 不 仅 可 用 来 对 等 级 或 连续 数据 的 诊断 方法 进行 准确 
度 评价 ,还 可 根据 要 求 将 等 级 变量 转化 为 二 分 变量 。 其 基本 过 程 是 先 将 各 等 级 状态 下 的 数据 
两 两 比较 , 并 分 别 计算 曲线 下 的 面积 (AUC)，, 最 后 比较 AUC, 以 达到 评价 的 效果 REF, 
2012; Obuchowski etal., 2005) 。 例 如 陈 卫 中 在 评价 氧化 低 密度 脂 和 蛋白 ELISA 检测 试剂 盒 
在 冠 心病 诊断 中 的 诊断 价值 中 ， 按 金 标准 将 被 斌 分 为 三 类 状态 (有 病 ，, 无 病 ， 可 疑 )。AUC 
估计 与 互相 比较 可 通过 R 软 件 中 的 nonbinROC 包 (Paul Nguyenetal., 2007) 实现 ， 更 多 R 包 
详情 及 操作 方法 详 见 该 研究 。 

2.2 时 间 依 赖 相关 “(time-dependent〉 的 ROC 曲 线 分 析 方 法 (在 本 文 用 ‘ROC RE) 

仆 OC 分 析 方 法 主要 是 通过 拓展 敏感 性 与 特异 性 的 概念 ， 并 观察 它 在 每 个 时 间 点 的 疾病 
状态 , 从 而 产生 不 同 的 敏感 性 和 特异 性 , 以 此 获得 一 个 与 时 间 相 关 的 ROC 曲 线 图 Kamarudin 
et al., 2017) 。 此 外 还 可 直接 得 到 不 同时 间 点 的 AUC， 从 而 获得 关于 AUC (b 的 函数 图 ， 以 
便 直 观 有 效 地 比较 同一 测量 指标 以 及 不 同 测量 指标 之 间 在 不 同 观测 时 间 的 准确 性 .此 方法 最 
早 由 Heagerty 和 Zheng (2005) 提出 ， 其 研究 发 现 可 利用 每 个 时 间 点 t 的 累计 敏感 性 与 动态 特 
异性 (C/D) 、 事 件 敏感 性 与 动态 特异 性 O/D) 以 及 事件 敏感 性 与 静态 特异 性 (1/S) 等 三 种 不 
同 定义 评估 上 述 时 间 观 测 事件 的 敏感 性 与 特异 性 ， 从 而 适用 于 不 同 的 情境 。 

蕊 OC 分 析 中 可 观察 个 体 疾病 的 连续 状态 ， 增 加 个 体 发 病 时 间 的 信息 ， 还 能 在 时 间 点 间 
构建 ROC 曲 线 ， 并 比较 各 测量 指标 的 预测 能 力 。 这 在 临床 上 有 颇 为 广泛 的 应 用 ， 例 如 Suzuki 
过 生存 分 析 评 估 SIS 和 mGPS 对 预后 的 影响 , 利用 随时 间 变 化 的 受 试 者 操作 特征 分 析 ， 比 
X 


趣 的 各 个 评分 对 预后 的 影响 (Suzuki et al.，2018)。 再 如 Lima 等 利用 ROC 法 结合 振荡 
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梯度 自 旋 回 波 (OGSE) 和 脉冲 梯度 自 旋回 波 (PGSE) 的 不 同 扩散 时 间 ， 探 讨 ADC 值 变化 在 头颈 


部 肿瘤 良 恶 性 鉴别 中 的 应 用 CLimaetal., 2019 )。tROC 可 通过 R 包 实现 , 具体 可 参考 (Diaz— 


Coto et al.，2020) 的 研究 。 
2.3 基于 贝 叶 斯 理论 (Bayesian theory〉 的 无 金 标 准 ROC 分 析 方 法 (下文 用 ‘BROC ft 
8) 

上 述 ROC 分 析 方 法 依赖 于 金 标准 , 但 在 临床 实践 中 许多 疾病 的 金 标准 获取 成 本 颇 高 ， 甚 
至 缺乏 金 标 准 。 基 于 此 ，Peng (1996) 等 提出 将 贝 叶 斯 理论 引入 ROC 分 析 中 ， 即 在 无 金 标 
准 条 件 下 仍 可 考虑 多 个 协 变量 的 影响 ， 且 可 计算 不 同 协 变量 影响 下 的 ROC 曲 线 下 面积 
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CAUC)， 从 而 比较 诊断 准确 性 。 

贝 叶 斯 理论 与 频率 统计 不 同 , 认为 概率 是 主观 的 , 并 主张 将 个 体 经 验 信息 作为 重要 部 分 
来 推导 后 验 分 布 。 基 本 原理 是 先 根据 模型 的 样本 似 然 函数 ， 结 合 参数 的 先 验 分 布 ， 从 而 推导 
出 后 验 分 布 ， 即 由 先 验 概率 乘 以 似 然 值 而 获得 后 验 概率 。 近 年 来 随 着 计算 机 技术 的 进步 ， 贝 
叶 斯 理论 被 广泛 应 用 于 许多 领域 ， 尤 其 是 在 医学 的 诊断 研究 和 心理 测量 工具 准确 性 评估 中 
(Arora & Thorlund, 2019; Goyal & Yolcu, 2019; Park & Lee, 2019 ) 。 在 诊断 准确 性 评估 
中 ,首先 需要 根据 目标 人 群 相关 信息 ,确定 先 验 信息 , 这 是 第 一 步 也 是 最 为 关键 的 一 步 ; 
通过 似 然 函 数 对 参数 的 先 验 分 布 进行 调整 ， 从 而 推导 出 后 验 分 布 , 实现 对 相关 诊断 方法 
灵敏 度 和 特异 度 的 估计 ， 更 多 详情 可 参见 相关 资料 McClean et al., 2014) . 

因此 对 无 金 标 准 诊断 实验 评价 而 言 , 只 要 有 一 定 的 实验 诊断 先 验 信息 , 再 结合 一 些 并 非 
金 标 准 但 临床 证 实 有 效 的 现时 观测 数据 , 就 可 以 通过 贝 叶 斯 理论 推导 出 诊断 实验 评价 指标 的 
后 验 分 布 , 从 而 摆脱 对 金 标 准 的 依赖 ,例如 Amini(2020) 等 利用 贝 叶 斯 潜在 分 类 模型 (LCMs) 
以 联系 诊断 测试 观察 结果 与 潜伏 疾病 状态 , 在 无 完全 准确 疾病 状态 分 类 的 情况 下 评估 诊断 准 
外 性 。 除 此 之 外 ，BROC 尚 能 同时 考虑 多 个 协 变量 的 影响 。 相 比 前 面 几 种 方法 ， 其 在 本 质 上 
摆脱 ROC 分 析 方 法 受 金 标准 的 限制 ， 从 而 拓展 了 ROC 分 析 方 法 在 医学 、 心 理学 、 计 算 机 等 多 
个 领域 的 应 用 。 如 Zi - Hui Tang(2014) 的 研究 , 利用 贝 叶 斯 模型 评估 压力 反射 敏感 性 (BRS ) 
进而 预测 心血 管 自主 神经 病变 (CAN) 。 在 CAN 无 金 标准 的 前 提 下 ,选取 2092 疑 似 病例 ， 将 
年 龄 、 血 压 等 作为 协 变量 ， 以 BRS 为 诊断 标准 ， 使 用 贝 叶 斯 潜在 类 模型 来 评估 BRS 的 敏感 性 
和 特异 性 。 结 果 发 现 BRS 在 CAN 诊 断 试验 中 具有 较 高 的 敏感 性 和 特异 性 , 具有 一 定 的 参考 价 
值 ， 提 示 BRS 检 验 是 诊断 CAN 的 有 效 工 具 (Zi - Hui Tang et al., 2014) 。 其 实 早 在 2012 年 
QiuWang 等 人 就 提出 将 BROC 分 析 应 用 在 教育 学 与 心理 学 当中 ， 结 合 贝 叶 斯 层次 模型 和 接受 
者 操作 特征 分 析 (BROC) 来 评估 兴趣 强度 (IS) 和 兴趣 分 化 D) 如 何 预测 低 社会 经 济 地 位 
(SES) 青年 的 兴趣 - 专业 一 致 性 (IMC) ) (QiuWangetal, 2012) 。 当 然 ， 本 文 仅 介绍 贝 叶 
斯 方法 在 无 金 标准 条 件 下 的 诊断 应 用 , 事实 上 贝 叶 斯 理论 的 应 用 远 不 止 此 , 还 包括 深度 学 习 、 
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潜 变 量 建 模 、 多 水 平 结构 建 模 、 实 验 数据 分 析 等 。 随 着 交叉 学 科 思想 的 进一步 深入 ,将 贝 叶 
斯 理论 与 相关 研究 领域 结合 的 应 用 也 越 来 越 多 。 当 然 贝 叶 斯 理论 模型 也 并 非 完美 , 因为 它 过 


分 强调 经 验 的 重要 性 ， 容 易 造成 主观 偏差 ， 从 而 影响 结果 准确 性 。 

总 的 来 说 ，ROC 分 析 是 一 种 全 面 的 ， 且 准确 评估 诊断 准确 性 和 预测 价值 的 方法 ， 广 泛 
必用 于 医学 和 心理 学 。 近 年 来 ， 结 合 实际 需求 ， 在 传统 二 分 金 标 准 条 件 下 ROC 分 析 的 基础 
上 ， 发 展 出 适用 于 不 同 临 床 条 件 下 的 适用 方法 ， 研 究 结果 也 充分 证 明 其 合理 性 。 


3. BROC 分 析 方 法 在 心理 测量 中 的 应 用 

如 引言 部 分 所 述 ，ROC 分 析 方法 虽然 在 心理 学 领域 已 经 应 用 颇 多 年 ， 但 是 其 仍然 限于 
研究 感知 觉 阀 限 及 认 知 加 工 等 领域 , 从 根本 上 来 说 其 局 限于 二 分 金 标准 。 但 随 着 计算 机 科学 
的 进一步 发 展 ，ROC 分 析 方 法 已 有 较 大 的 新 进展 ， 尤 其 是 在 诊断 研究 方面 。 因 而 本 文 实质 
上 关注 “移植 ”到 心理 学 领域 中 的 ROC 分 析 方 法 , 尤其 是 基于 贝 叶 斯 原理 的 ROC 分 析 方法 
给 心理 学 研究 带 来 的 启示 ， 并 就 已 有 的 相关 研究 进行 总 结 梳理 。 
3.1 量化 某 种 心理 测量 工具 的 预测 价值 〈 准 确 性 ) 
在 心理 的 临床 应 用 中 ， 常 需要 根据 测量 结果 对 数据 进行 分 类 ， 从 而 有 助 于 做 出 是 或 否 、 
有 或 无 的 判断 。 例 如 心理 学 的 相关 选拔 测试 中 时 ， 需 要 对 连续 性 结果 数据 进行 分 类 ， 从 而 做 
出 是 否 符合 企业 要 求 的 判断 ; 而 其 在 心理 疾病 的 测量 中 也 是 尤为 重要 , 如 根据 抑郁 量 表 的 得 
分 多 少 ,最 终 将 其 与 特定 值 比较 ， 从 而 做 出 是 否 患 抑郁 症 的 判断 。 在 过 去 的 研究 中 ,我 们 党 
使 用 平均 数 或 者 中 位 数 进行 二 分 转换 ， 而 在 心理 疾病 诊断 中 ,例如 抑郁 量 表 得 分 中 ,我 们 党 
将 其 与 固定 的 得 分 作 比 较 ， 对 其 做 出 分 类 。 但 事实 上 ， 这 样 分 类 的 准确 性 并 无 法 对 其 进行 评 
估 。 而 BROC 分 析 可 根据 曲线 上 拐点 的 正切 值得 到 获得 阔 限 值 (cut - off) ， 并 参考 约 登 指 
数 找到 最 佳 cut - off 值 从 而 将 连续 变量 的 结果 划分 为 两 类 。Cut-off 值 作为 诊断 研究 中 多 年 
来 最 佳 分 类 指标 ， 将 其 应 用 于 心理 学 的 二 分 类 转换 中 是 具有 十 分 大 潜力 的 。 例 如 抑郁 症 ， 焦 
虑 症 ， 强 迫 症 等 评估 中 可 在 测试 中 得 出 ROC 曲线 ， 根 据 cut - off 值 ， 结 合 医生 的 意见 即 可 
做 出 是 否 有 抑郁 症 的 诊断 。 除 临床 诊断 外 ，ROC 分 析 还 适用 于 心理 普 测 。 例 如 Battaglia 等 


利用 ROC 分 析 方 法 ， 获 得 ESAS physical. psychological 和 global 子 量 表 的 最 佳 分 界 点 并 比 


© 较 KTR 5 ICD - 10 诊断 和 DCPR 诊断 的 ESAS 评分 (Battaglia et al., 2020); 再 如 Thapa 等 
利用 ROC 曲线 分 析 的 方法 判断 自杀 意念 和 自杀 企图 中 的 三 维 心理 痛苦 (DPPS) 作为 检测 高 

杀 风 险 抑郁 症 患 者 的 有 效 筛 查 量 表 的 准确 性 〈Thapa etal., 2020) . 

问卷 法 作为 心理 学 研究 中 最 常用 的 测量 工具 之 一 , 其 广泛 应 用 于 心理 特质 测量 以 及 心理 
疾病 的 诊断 研究 中 。 而 其 本 身 的 准确 性 以 及 预测 价值 的 评估 是 保证 测量 有 效 的 重要 前 提 。 例 
如 利用 大 五 人 格 问卷 来 预测 人 格 特 征 ， 测 量 个 体 情感 障碍 的 人 格 特征 易 感 性 (Wilks et al., 
2020) ， 以 及 预测 主观 幸福 感 和 心理 幸福 感 (Anglimetal.，2020) 。 过 去 的 研究 多 采用 信 效 
度 检验 , 通过 信 效 度 系 数 来 反应 其 有 效 性 和 适用 性 , 如 使 用 赫 龙 巴赫 系数 (Ca) 反应 其 信 度 ， 
日 此 方法 无 法 直观 反应 其 准确 性 与 预测 价值 。 而 BROC 分 析 方 法 可 以 通过 曲线 下 面积 (AUC) 
直接 量化 其 在 该 研究 中 的 准确 性 ， 弥 补 了 传统 信 效 度 检验 方法 的 不 足 。 例 如 Zeinab 等 在 判 


断 人 格 特质 对 心理 问题 的 行为 预测 研究 中 ， 通 过 BROC 分 析 确 定 人 格 特征 对 伊朗 成 年 人 常 
见 心理 问题 的 预测 价值 ， 利 用 BROC 分 析 方 法 ， 分 别 获得 三 种 问卷 的 ROC 曲线 ， 并 比较 曲 
线 下 的 面积 ， 得 出 神经 质 对 于 预测 常见 心理 问题 有 良好 的 价值 (Zeinab et al.，2017) 。 再 如 
Kassing 等 使 用 BROC 分 析 方 法 来 利用 儿童 早期 的 行为 问题 去 预测 成 人 的 信念 (Kassing et 
al, 2019) > Lin GM (2020) 等 则 利用 BROC 分 析 来 判断 相关 机 器 学 习 模 型 对 军事 人 员 自 
杀 意 念 预 测 的 准确 性 的 好 坏 评价 。 

此 外 ，BROC 分 析 方 法 不 仅仅 适用 于 问卷 研究 中 ， 其 同样 适用 于 实验 研究 中 ， 如 磁 共振 
与 脑 研究 等 等 。Stevens 等 利用 BROC 研究 功能 性 磁 共 振 成 像 {MRD 在 脑 肿 瘤 术 前 定位 
的 可 靠 性 (Stevens etal.,2016), ， 再 如 Raes 等 利用 BROC 评估 经 颅 磁 刺激 (TMS) 的 准确 性 


并 利用 贝 叶 斯 潜在 类 别 模型 诊断 马 疹 髓 功能 障碍 (Raes etal., 2020) , Gu 等 也 利用 BROC 分 


z 析 判 断 MRI 对 疾病 的 诊断 性 能 (Gu, 2019) . 在 诸多 心理 疾病 的 诊断 研究 中 , 过 去 常 将 ICD 
e 作为 诊断 标准 ， 但 诸多 心理 特质 的 测量 结果 是 不 具备 金 标准 的 ， 而 BROC 分 析 可 以 实现 在 
三 无 金 标准 的 条 件 下 对 其 进行 准确 性 评估 , 这 一 方法 的 应 用 为 心理 学 测量 工具 的 准确 性 评估 打 
过 开 了 一 扇 大 门 。 

= 3.2 比较 不 同 条 件 下 的 测量 工具 

> ROC 分 析 可 以 通过 获得 曲线 下 面积 (AUC) ， 以 便 对 不 同 的 得 查 或 诊断 试验 进行 有 意 
> 义 的 比较 (Walker, 2019) 。 众 所 周知 ， 对 于 同一 心理 特质 我 们 常 通过 不 同 的 测量 工具 来 进 


行 研究 ,例如 测量 心理 渴求 的 相关 问卷 根据 总 结 发 现 达 到 五 份 以 上 , 如 《依赖 程度 量 表 问卷 》、 
c 《使 用 药物 渴求 问卷 》、《 毒 品 复 吸 高 危 量 表 》、《 成 瘾 物质 渴求 与 自动 化 行为 反应 量 表 》 
FT 等 。 除 此 之 外 , 不同 外 在 条 件 下 ,同一 工具 测量 的 结果 可 能 会 出 现 差异 。 因 此 单单 利用 信 效 
度 一 个 指标 来 对 其 有 效 性 下 直接 的 结论 是 片面 且 缺 乏 科 学 性 的 , 且 利 用 唯一 的 固定 值 来 对 其 
结果 进行 二 分 类 转换 也 会 对 结果 造成 偏差 ， 而 利用 ROC 分 析 可 以 很 好 的 回避 此 问题 。 我 们 
在 此 基础 上 梳理 发 现 , 不 同 条 件 下 的 测量 工具 的 比较 主要 包括 不 同 被 试 、 不 同时 间 、 不同 测 
量 工 具 之 间 的 不 同 。 
在 心理 学 研究 中 , 比较 不 同样 本 之 间 对 同一 心理 因素 的 差异 对 理论 和 实践 具有 重大 的 意 
义 。 过 去 对 于 不 同 被 试 样本 同一 心理 特征 的 差异 比较 通常 是 利用 参数 检验 来 实现 , 但 它 要 求 
数据 呈正 态 分 布 。 而 BROC 分 析 对 数据 分 布 形态 无 要 求 ， 可 直接 利用 曲线 图 比较 不 同样 本 
之 间 的 差异 ， 并 通过 ROC 曲线 图 更 加 直观 清晰 的 呈现 结果 。 对 于 某 些 心 理 特质 ， 不 同人 群 
之 间 可 能 就 会 存在 不 同 的 差异 , 那么 其 在 不 同 被 试 人 群 中 的 准确 性 就 可 能 存在 差异 。 例 如 不 
同 职业 从 事 人 员 事 业 倦 仍 可 能 不 同 即 可 通过 ROC 分 析 来 比较 。 
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ROC 曲线 方法 可 以 独立 比较 两 个 或 多 个 测量 工具 的 准确 性 。 同 一 个 心理 现象 或 者 心理 
因素 由 于 理论 基础 和 维度 不 同 所 使 用 的 测量 工具 可 能 存在 差异 ,不同 的 研究 者 对 同一 心理 问 
题 的 研究 可 能 采用 不 同 的 量 表 , 但 是 很 少 有 人 将 不 同 的 量 表 之 间 进 行 准确 性 的 比较 , 因此 用 
于 同一 心理 测量 的 问卷 之 间 本 身 可 能 就 可 能 存在 差异 性 ， 从 而 导致 形成 不 同 的 研究 结果 , 不 
利于 后 人 重复 研究 结果 和 进行 元 分 析 。 所 以 研究 者 存在 比较 不 同 测量 工具 准确 性 的 需求 , 通 
过 BROC ( 贝 叶 斯 的 ROC) 分 析 可 实现 此 目标 ， 在 无 金 标准 的 情况 下 ， 独 立 比较 不 同 测量 
工具 之 间 的 差异 ， 并 评价 其 准确 性 。 如 Chenneville 等 人 利用 ROC 分 析 探 讨 比较 PHQ 和 
CES - D 对 艾滋 病毒 感染 者 青少年 抑郁 症 筛 查 的 效用 (Chenneville et al.,2019); 再 如 
Hartung 等 人 利用 ROC 分 析 方 法 来 评估 医院 焦虑 抑郁 量 表 (HADS) 和 9 项 患者 健康 问卷 
(PHQ - 9) 作为 得 查 癌 证 患者 抑郁 的 工具 的 有 效 性 比较 (Hartung et al. ,2017) 。 
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> ERMAR x BROC 分 析 方 法 在 心理 学 中 的 应 用 ， 实 际 上 ROC 分 析 也 是 心理 学 纵 
e 向 研究 中 重要 可 取 的 方法 。 其 不 仅仅 可 以 单独 比较 某 一 测量 工具 的 准确 性 ,更 是 能 够 考虑 时 
= 间 等 协 变量 因素 的 影响 。tROC 目前 常用 于 生存 分 析 中 ， 尤 其 是 对 癌症 晚期 病人 生存 时 间 的 
+ 预测 上 。 遗憾 的 是 过 去 虽然 关于 其 在 生存 分 析 中 具有 较 多 的 研究 , 但 也 受 限于 此 ， 极 少 有 
一 究 者 将 其 用 于 其 他 纵向 研究 中 。 其 在 心理 学 中 的 应 用 更 是 少 之 又 少 , 但 其 在 心理 学 领域 的 潜 
= 力 不 可 小 估 。 如 Liu 等 人 采用 «ROC 分 析 来 评估 肌 电 活动 随时 间 变化 的 动态 预测 性 能 ， 并 通 
> 过 ROC 曲线 获得 最 佳 cut-off 值 ， 将 强直 性 和 阶段 性 肌 电 活动 分 为 轻 度 和 重度 两 类 (Liu 


et.al., 2019) 。 再 如 测量 心理 渴求 的 量 表 可 能 在 戒毒 人 员 于 戒毒 所 的 戒毒 时 长 不 同 ， 其 测 
c 量 效果 可 能 存在 差异 ， 这 亦 与 我 们 接 下 来 的 研究 紧密 相关 。 
FI 综 上 所 述 ，ROC 分 析 方 法 是 一 种 适用 于 心理 学 ， 医 学 等 诸多 领域 的 研究 方法 。 近 年 来 
ROC 分 析 方 法 在 心理 学 中 的 应 用 不 仅 限于 信息 加 工 ， 还 用 于 心理 测量 工具 的 比较 与 评价 ， 
但 总 体 来 说 其 应 用 在 心理 学 领域 方兴未艾 。 系 统 全 面 地 梳理 ROC 分 析 方 法 在 心理 测量 准确 
性 评估 领域 的 新 进展 有 利于 全 面 推动 该 方法 的 应 用 。 
4. 实例 演示 
为 更 好 的 说 明 ROC 分 析 方法 在 心理 测量 领域 的 应 用 ,本文 利 用 OpenBUGS 软件 , 采用 
人 工 数据 ， 模 拟 BROC 分 析 方 法 在 心理 测量 中 的 应 用 实 操 。BROC 分 析 首 先 需要 选择 合适 
的 模型 ， 再 根据 实际 的 需要 选择 并 设置 不 同 的 参数 ， 然 后 验证 模型 ， 最 后 利用 软件 获得 其 
ROC 曲线 以 及 AUC cut-off 值 等 等 .本 次 实验 模拟 的 是 对 100 名 受 试 者 的 海洛因 成 疗 情 况 ， 
获得 判断 是 否 成 瘤 最 佳 的 阔 限 值 ， 以 及 量化 本 次 研究 的 准确 性 。 先 让 100 名 被 试 完成 《 海 洛 
因 依赖 量 表 》 并 记录 得 分 ， 以 下 是 分 析 过 程 。 
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本 次 模拟 假设 有 100 FRE: i= 1,2,..….,100。 其 中 受 试 者 的 成 疗 问 卷 分 数 计 为 Yı- 
年 龄 等 人 口 学 变量 计 为 X，。 假设 第 i 个 人 的 真实 情况 di; OX, 不 成 瘾 =0) HA ERKEN 
青 况 下 和 不 成 瘾 的 情况 下 测试 得 到 的 问卷 分 数 是 连续 变量 且 其 得 分 的 分 布 都 是 正 态 的 ， 并 
且 是 两 个 不 同 的 正 态 分 布 ， 即 : 

rld=0~NGwnD Yld=1~N(g« =a+t8B,1) 

由 上 可 知 qd; 实际 上 是 二 项 分 布 , 即 d; ~ Bern(n,) 2d; = 1 的 概率 (这 个 人 是 否 成 瘾 )， 加 入 
人 口 学 等 协 变量 的 影响 即 : logit(m) = 十 六 *Xi。 在 贝 叶 斯 模型 下 ， 我 们 给 予 这 些 参数 适 
当 的 先 验 分 布 (prior ) :æ ~ N(0,1) 8 ~ N(1) n~ N(0,1) Y ~ N(0,1) IEA 4 Fit ~ 
gamma(0.001,0.001) gamma 分 布 〈 因 为 tau 是 正 数 )。 假设 我 们 选择 "eta"、"psi" 等 参数 ， 使 
用 gibs 抽样 的 方法 通过 反复 迭代 来 让 参数 收敛 ， 此 次 模拟 迭代 三 次 ， 其 结果 如 图 2 所 示 ， 
其 相互 重 三 ， 说 明 迭 代 效 果 良 好 。 此 外 计算 模型 各 参数 的 秩 相关 结果 发 现 相 关系 数 趋 于 0， 
说 明 模型 正常 ， 结 果 如 图 3 所 示 。 最 后 获得 ROC HARA CLA 4) 及 相关 信息 。 

当然 ， 本 次 模拟 是 解决 在 无 金 标准 的 前 提 下 ， 对 连续 变量 进行 ROC 分 析 的 过 程 。 其 不 
仅 可 以 应 用 于 问卷 数据 结果 的 准确 性 测量 以 及 结果 分 类 以 及 行为 实验 结果 。 此 次 模拟 的 具体 
代码 可 联系 通讯 作者 。 
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2 参数 拟 合 度 和 概率 密度 函数 图 
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5. 总 结 与 展望 
EH ROC 分 析 方 法 被 应 用 至 


图 4 ROC 结果 图 


I 诊断 研究 中 以 来 ， 随 着 临床 工作 的 需要 和 而 


究 技 术 的 进步 ， 


方法 上 屡 有 突破 ,但 是 国内 尚 缺乏 对 ROC 具体 方法 进行 的 系统 综述 .而 近年 来 虽 偶 有 将 ROC 


分 析 方 法 应 用 于 心理 学 的 研究 , 但 并 未 见 对 其 在 心理 研究 中 基体 应 用 的 梳理 ， 


总 结 。 为 此 本 文 


不 仅 总 结 整理 ROC 分 析 方 法 的 具体 进展 ， 还 梳理 它 在 心理 学 研究 中 的 具体 应 用 。 
本 文 首先 整理 不 同 条 件 下 的 ROC 分 析 方 法 的 应 用 ， 并 就 其 实现 方式 做 了 简单 的 介绍 ， 


然后 就 该 方法 在 心理 学 中 的 应 用 做 详细 的 阐述 总 结 。 


如 前 文 所 述 ， 整 体 而 言 ROC 分 析 方 法 


本 身 已 经 较为 成 熟 , 近年 来 它 在 心理 测量 工具 准确 性 评估 中 的 应 用 也 越 来 越 多 。 作 者 总 结 梳 


学 中 的 具体 应 用 , 认为 其 应 用 于 心理 议 


i 


理 具体 方法 上 的 进展 以 及 在 心理 
定 的 问题 需要 解决 。 


量 评估 领域 尚 存在 一 


首先 ，ROC 分 析 在 心理 测量 工具 评估 中 的 使 用 价值 需要 更 多 的 实际 研究 支撑 。 ROC 分 


c 


析 方 法 最 大 的 优势 是 可 以 获得 ROC 曲线 图 ， 
分 析 方 法 作为 评估 诊断 价值 的 良好 手段 主要 用 于 


从 而 直观 的 独立 比较 其 准确 性 差异 ,过 去 的 ROC 
医学 领域 中 , 尽管 近年 来 国外 逐渐 有 研究 出 


现 心理 测量 评估 中 的 应 用 研究 ， 但 基于 心理 指标 与 生理 指标 的 特点 不 同 ，ROC 在 心理 测量 
中 的 作用 仍然 需要 更 多 的 实证 研究 来 证 明 。 此 外 在 使 用 ROC 分 析 方 法 的 同时 还 应 该 结合 具 
体 的 实际 情况 ,尤其 是 当 用 于 心理 疾病 的 诊断 研究 时 ,应 该 要 综合 考虑 医生 的 主观 判断 ,做 
出 最 后 的 判断 。 
其 次 ，BROC 的 应 用 价值 值得 进一步 深入 探讨 。BROC 分 析 方 法 是 各 个 ROC 分 析 方 法 
中 限制 条 件 最 为 宽松 的 , 无 需 金 标准 即 可 评估 测量 工具 准确 性 。 而 此 方法 的 提出 和 使 用 为 其 
在 心理 学 中 的 应 用 打下 良好 的 基础 。 例 如 目前 在 物质 成 疗 的 研究 中 基于 心理 渴求 测量 方式 主 
要 为 问卷 , 脑 电 等 相对 客观 的 研究 工具 仍 需要 问卷 结果 予以 锚 定 。 但 由 于 测量 心理 将 求 的 问 
卷 不 同 , 结果 可 能 会 因为 测量 方式 的 不 同 而 存在 差异 ， 而 在 不 同 戒 毒 时 间 段 不 同 的 测量 工具 
的 准确 性 亦 可 能 存在 差异 。 此 外 ， 缺 乏 一 种 可 以 量化 心理 调 求 感 程度 ， 并 且 做 出 是 否 有 “ 心 
瘾 ”判断 的 方法 。 我 们 的 后 续 研 究 将 会 与 此 相关 ， 进 一 步 将 ROC 分 析 应 用 于 心理 渴求 感 的 
诊断 研究 。 由 此 可 见 ， 利 用 BROC 分 析 来 评估 心理 渴求 相关 测量 工具 的 准确 性 具有 重要 的 
理论 和 实践 意义 。 此外, 在 心理 学 研究 中 主要 通过 问卷 法 和 实验 法 来 测量 心理 现象 与 行为 活 
动 ， 而 BROC 分 析 可 以 在 无 金 标准 的 条 件 下 独立 计算 比较 量 表 和 实验 结果 的 有 效 性 。 

除 此 之 外 ，ROC 分 析 可 以 融合 机 器 学 习 、 计 算 精神 病 学 等 交叉 学 科 进行 研究 。 近 年 来 
随 着 计算 机 科学 的 进一步 发 展 , 机 器 学 习 和 计算 精神 病 学 逐渐 成 为 研究 热点 , 不 仅 广泛 应 用 


于 图 像 识 别 、 语 言 处 理 和 数据 挖掘 , 医疗 领域 等 (Komura& Ishikawa, 2019; Goecks & Jalili. , 


Ht 


2020; Kan, 2017; Crawley & Zhang., 2020) ， 还 在 心理 测量 领域 成 为 高 级 心理 过 程 的 研究 


工具 (Bleidorn & Hopwood, 2018; Shatte & Hutchinson, 2019) 。 在 机 器 学 习 的 过 程 中 评 
估 模 型 准确 性 ， 并 做 出 判断 是 必 不 可 少 的 步 又， 而 这 一 步骤 可 以 通过 ROC 分 析 来 实现 ， 其 
中 AUC 是 机 器 学 习 中 一 种 重要 的 性 能 评价 准则 , 广泛 应 用 于 类 别 不 平衡 学 习 、 代 价 敏感 学 
习 、 排 序 学 习 等 诸多 学 习 任 务 (Dwyer& Falkai, 2018) 。 总 的 来 说 ROC 分 析 的 应 用 范围 仍 
然 值得 推广 ， 本 身 具 备 有 不 可 替代 的 作用 。ROC 分 析 本 身 就 像 催 化 剂 一 样 ， 能 够 应 用 于 各 
个 需要 测量 准确 度 的 领域 , 并 且 由 于 它 本 身 操作 简单 ,结果 却 精确 丰富 ， 能够 为 诸多 研究 增 


添 色彩 。 
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Psychometric Accuracy Assessment 
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Abstract: ROC (Receiver Operating Characteristic) analysis is an important method widely applied 
in Diagnostic research. Although this method has been widely used in Diagnostic research in recent 
years, it has not been applied in psychological measurement in China. In the ROC analysis 
method, this paper mainly introduces the application of ROC analysis (BROC) based on 
Bayesian theory in psychometric measurement. Based on this, we not only review the concept 
of ROC analysis and its important indicators, but also summarize the Grade variable Gold Standard, 
Time Dependence Correlation and No Gold Standard. Consequently, the application value in 


psychological measurement require reviewed and prospected. 
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